Apprendre à ordonner la frontière de crawl pour le crawling orienté

نویسندگان

  • Clément de Groc
  • Xavier Tannier
چکیده

Focused crawling consists in searching and retrieving a set of documents relevant to a specific domain of interest from the Web. Such crawlers prioritize their fetches by relying on a crawl frontier ordering strategy. In this article, we propose to learn this ordering strategy from annotated data using learning-to-rank algorithms. Such approach allows us to cope with tunneling and to integrate a large number of heterogeneous features to guide the crawler. We describe a novel method to learn a domain-independent ranking function for topical Web crawling. We validate the relevance of our approach on “large” crawls of 40,000 documents on a set of 15 topics from the OpenDirectory, and show that our approach provides an increase in precision (harvest rate) of up to 10% compared to a baseline Shark Search algorithm. Finally, we discuss future leads regarding the application of learning-to-rank to focused Web crawling. MOTS-CLÉS : Crawling orienté, Apprentissage de fonction d’ordonnancement, Recherche d’Information sur le Web.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Le Filtrage Collaboratif vu comme un problème de Consensus d’Ordonnancements

Résumé : Cet article formalise le Filtrage Collaboratif comme un problème de consensus d’ordonnancements. Lorsque les seules informations disponibles sur les utilisateurs sont la liste des produits qu’ils ont achetés ou l’historique des liens qu’ils ont suivis, ce formalisme permet de tenir compte de l’ordre des achats (ou des clics). Un modèle fondé sur un processus de Dirichlet ainsi que sur ...

متن کامل

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

Intégration de l'Apprentissage non Supervisé aux Métaheuristiques pour la Résolution des Problèmes d'Optimisation Combinatoire Difficiles

Résumé. Le présent article rentre dans le cadre d’un projet ambitieux qui a pour objectif l’intégration des techniques d’apprentissage aux métaheuristiques pour contribuer à la résolution des problèmes d’optimisation combinatoire NP-difficiles. L’approche proposée consiste à incorporer un apprentissage non supervisé aux métaheuristiques à population de solutions pour « apprendre » et constituer...

متن کامل

Identification à la limite de langages dans le cadre d’un bruit systématique

Pour étudier l’apprentissage à partir de données bruitées, il est usuel de se baser sur un modèle de bruit statistique. L’influence du bruit est alors envisagée selon des critères pragmatiques ou eux-mêmes statistiques, en se basant donc sur un paradigme prenant en compte une distribution des données. Dans cet article, nous étudions le bruit comme un phénomène non statistique, en définissant la...

متن کامل

Personnalisation flexible d'un processus de recherche d'information mobile

RÉSUMÉ. Dans le passé, les modèles de recherche personnalisés ont été principalement fondés sur le contexte cognitif (Url visitées, les documents vus) de l’utilisateur indépendamment de son environnement caractérisé par le lieu, le temps, les personnes proches, etc. Dans cet article nous proposons une approche de personnalisation des résultats de recherche Web pour des utilisateurs mobiles en e...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014